Материалы по тегу: распознавание речи

29.11.2022 [15:29], Сергей Карасёв

«Сбер» открыл доступ к платформе синтеза и распознавания речи SaluteSpeech

Команда SberDevices сделала публичным доступ к своей платформе синтеза и распознавания речи SaluteSpeech. Теперь воспользоваться решением могут все желающие при реализации некоммерческих проектов. Ранее применять платформу могли только юридические лица и индивидуальные предприниматели.

SaluteSpeech позволяет решать самые разные задачи. К примеру, малый и средний бизнес может озвучить презентационные материалы или транскрибировать аудиозаписи встреч и интервью для последующей работы с текстом.

 Источник изображения: «Сбер»

Источник изображения: «Сбер»

Инструмент поможет пользователям, у которых регулярно возникает потребность в переводе текста в голос и наоборот. Это могут быть всевозможные документы, лекционные материалы, видеоролики и пр. Крупный бизнес сможет оперативно протестировать технологию до принятия решения о дальнейшем сотрудничестве со «Сбером».

Платформа SaluteSpeech позволяет подключать речевые технологии в интерактивном голосовом меню, автоответчике, чатах, телемаркетинговых кампаниях, голосовых интерфейсах взаимодействия, для озвучивания контента и команд или голосового ввода на устройствах и сайтах. Важно отметить, что средства распознавания и синтеза речи можно использовать как вместе, так и по отдельности.

Правда, существуют ограничения по применению инструмента. Распознавание речи для физических лиц ограничено 100 минутами в месяц. Синтезировать текст можно на 200 000 символов в месяц — этого достаточно, чтобы создать небольшую аудиокнигу примерно на 100 страниц.

«Доступ к SaluteSpeech для реализации коммерческих проектов исключает эти ограничения. При работе с облачной версией платформы клиент платит по количеству секунд для распознавания речи и по числу символов для её генерации», — отмечает «Сбер».

Постоянный URL: http://servernews.ru/1078073
22.09.2022 [17:44], Татьяна Золотова

«ВКонтакте» открыла доступ к своим технологиям распознавания речи

Сторонним разработчикам открыли доступ к технологии «ВКонтакте», которая считывает голос и переводит его в текст. Технология распознавания речи или ASR (Automatic Speech Recognition), внедряется в несколько кликов. Об этом рассказал технический директор «ВКонтакте» Александр Тоболь на открытии конференции Saint HighLoad++.

Для распознавания можно выбрать одну из двух моделей. Нейтральная подойдет для разборчивой речи, как в телешоу или интервью, а спонтанная поможет, когда нужно обработать более обыденную речь со сленгом и ненормативной лексикой. Нейросети «ВКонтакте» умеют удалять из расшифровки шумы и паузы, понимают неразборчивую речь.

Источник:

Источник: "ВКонтакте"

Технология доступна через веб-интерфейс на специальной странице или через публичный API «ВКонтакте». Решение подойдет для стартапов, инди-проектов, личных pet-проектов для обучения и саморазвития.

Как рассказал СТО «ВКонтакте» Александр Тоболь, каждый месяц пользователи отправляют более 2 млрд голосовых сообщений — это миллионы часов аудио, которые обрабатывают нейросети компании. ASR используется «ВКонтакте» для расшифровки голосовых сообщений, генерации субтитров в видео, персональных рекомендаций. Под капотом у решения сразу три нейросети: одна отвечает за распознавание речи, вторая находит подходящие слова, а третья расставляет знаки препинания. Технология построена таким образом, чтобы справляться с ежедневной обработкой сотен миллионов сообщений разной длительности, качества и наполнения. Каждое сообщение расшифровывается примерно за 1,5 с после отправки.

Постоянный URL: http://servernews.ru/1074670
Система Orphus